\chapter{测量与操作化}

\section{社会测量及其尺度}

\subsection{社会测量}

社会测量(Social Measurement)是指在社会调查中对社会现象之间性质差异和数量差异的度量。测量是指按照某种法则将某种物体或现象所具有的属性或特征用数字或符号表示出来的过程。

测量的主要作用在于确定一个特定分析单位的特定属性的类别或水平。即能对事物的属性做定量的说明，也能做定性的说明。

测量的要素，任何测量都包含三个不可缺少的条件要素，测量客体，数字或符号，分配数字或符号的法则。\cite{肯尼思·D·贝利，1986}

\subsection{测量的层次}

定类测量（NominalMeasures）定类测量也称类别测量或分类测量。是测量层次中最低的一种，他在本质上是一种分类体系；

定序测量（OrdinalMeasures）定序测量也称等级测量或顺序测量，他是对测量对象的等级或顺序的鉴别，取值可以按照某种逻辑顺序，将调查对象排列出高低或大小，确定其等级及次序。

定距测量（IntervalMeasures）也称为间距测量，或区间测量，他不仅能够将社会现象或事物区分为不同的类别，不同的等级，而且可以确定它们相互之间的间隔距离和数量差别。如智商。

定比测量（Ratiomeasures）也称比例测量和等比测量，它是对测量对象之间的比例或比率关系的测量。

\section{社会指标}

\subsection{社会指标及其类型}

具体性或可感知性，计量性或可量度性，重要性或代表性，时间性。社会指标的类型可分为客观指标和主观指标，经济指标和非经济指标，描述性指标和评价性指标，肯定指标否定指标和中型指标，投入指标，活动量指标和产出指标。

\subsubsection{社会指标的概念}

社会指标，是指反映社会现象的质量、数量、类别、状态、等级、程度等客观特性和社会成员的感受、愿望、倾向、态度、评价等主观状态的项目。

社会指标具有以下一些特点：

（1）可感知性或具体性，即社会指标不能是抽象的、一般的概念，而必须是具体的或可直接被感知的项目。

（2）可量度性或计量性，即社会指标不能是数量不清、界限不明的概念，而必须是可以用数字、符号进行量度的项目。

（3）代表性或重要性，即社会指标不能是次要的、说明不了问题的概念，而必须是对反映某种社会现象具有关键意义或代表性的项目。

（4）时间性，即社会指标不能是没时间界限的概念，而必须是有明确时间规定的项目。

\subsubsection{社会指标的类型}

（1）客观指标和主观指标。客观指标是指反映客观社会现象的指标，如人均居住面积义务教育普及率等。主观指标也称感觉指标，是指反映人们的感觉、愿望、态度、评价等主观状况的指标，客观指标是反映社情的指标，主观指标是反映民意的指标。

（2）经济指标和非经济指标。经济指标，是指反映社会经济生活状况的指标，非经济指标，是指反映经济领域之外的社会生活状况的指标。

（3）描述性指标和评价性指标。描述性指标，是指反映社会现象实际情况的指标，描述性指标是独立存在的，一个指标反映社会发展某些方面利弊得失的指标，如人口城镇化率、人均财政收入等。它通常是在某种理论指导下，用两种或两种以上社会现象相比较或计算来说明某些社会问题。

（4）肯定指标、否定指标和中性指标。肯定指标也称正指标，是指反映社会进步、发展等社会现象的指标，否定指标也称逆指标或问题指标，是指反映社会落后、倒退等社会问题的指标，中性指标，是指反映与社会进步、落后、前进、倒退没有直接联系的社会现象的指标，如国土面积、人口数、人口的民族构成等。

（5）投入指标、活动量指标和产出指标。投入指标，是指反映投入社会过程的人力、财力、物力资源的指标。活动量指标，是指反映社会过程的工作量、活动频率、承担次数等状况的指标。产出指标，是指反映社会过程结果的指标。一般的说，产出指标具有特别重要的意义，因为它往往是社会进步、发展的具体反映。投入指标与产出指标的区分是相对的，它主要取决于该指标反映的社会现象在某一特定社会过程中所处的地位和所起的地位和所起的作用。

\subsection{社会指标的功能}

反映功能，监测功能，比较功能，评价功能，预测功能，计划功能。

（1）反映功能。它是社会指标最基本的功能。社会指标对社会现象的反映总是以一定研究假设为指导的，而且有较强的选择性和浓缩性，即选择那些最重要、最有代表性的侧面来反映社会现象，力求把复杂的社会现象浓缩在有限的社会指标内。

（2）监测功能。它是反映功能的延伸，是动态的反映功能。监测功能有两类：一是对社会运行情况的监测。二是对社会政策、社会计划执行情况的监测。

（3）比较功能。当用社会来衡量两个或两个以上认识对象的时候就具有了比较功能。可分为两类：一类是横向比较：另一类是纵向比较，即对不同时期同一认识对象的比较。

（4）评价功能。它是反映功能、监测功能、比较功能的深化和发展。反映功能、监测功能、比较功能只是社会指标的基础功能，只有评价功能才是社会指标的核心功能。

（5）预测功能。它是在评价的基础上，对社会现象未来发展趋势的预先测算。预测功能包括两个方面：一是社会发展预测，即对推动社会发展的社会现象的预测；二是社会问题预测，即对阻碍社会发展现象的预测。

（6）计划功能。它是预测功能的延伸。计划功能可分为两类：一是发展的计划；二是防止或克服社会的计划。

\subsection{社会指标体系简介}

\subsubsection{社会指标体系的概念}

所谓社会指标体系，是指根据一定目的、一定理论设计出来的综合反映社会现象的具有科学性、代表性、系统性和可行性的一组社会指标。

（1）目的性。设计社会指标体系，必须有一定目的，为一定的社会需要服务。理论性。设计社会指标体系，必须以一定的理论作指导。前者体现单纯以经济为中心的思想，后者则体现以人为中心的经济、社会协调发展的观点。
（2）理论性。设计社会指标体系，必须以一定的理论作指导。
（3）科学性。设计社会指标体系，必须符合客观实际、符合科学原理。
（4）代表性。设计社会指标体系，必须选择那些最具有代表性的重要指标来组成指标体系。
（5）系统性。设计社会指标体系，必须使各个社会指标之间具有内在联系，并形成一个完整系统。
（6）可行性。设计社会指标体系，必须考虑是否可以获得连续的、具有较高的权威性的统计数据。

\subsubsection{社会指标体系的建立}

（1）社会管理型的社会指标体系。它通常是政府各行政主管部门为进行社会管理、规划、预测，在原统计指标基础上经过加工改造建立起来的。

（2）专题研究型的社会指标体系。它通常是各种研究机构或学者为研究假设独立设计出来的社会指标体系。

\subsubsection{社会指标体系的综合评价}
（一）　 综合评分方法
综合平分方法是在调查每个指标数据的基础上，先确定各个指标的权数和平分标准，然后计算各个指标的得分和各子系统指标的合计分，最后计算出社会指标体系的总计分，并以总计分作为评价对象的综合评价。

（二）　 分类法
分类法就是根据一个国家或地区经济、社会发展状况进行分类评价的方法。

（三）　 对比法
对比法就是通过对评价对象经济、社会发展情况与一定标准进行对比评价的方法。

\section{概念的具体化与操作化}

因为社会生活中使用的概念通常是模糊的或含义不清的，社会研究如果不对这些概念作出定义和具体化，也就无法对现象进行观察和度量。

\subsection{概念的具体化}

<1>概念的形成：概念是在日常生活中通过感性认识和互相交流形成的。是人们对许多现象的复杂而又具体的感受，并以一个名字对这些感受作出整体的、含混的概括。概念是人们思维的产物，它是抽象的，无法直接观察的，因为它本来并不存在，是人们创造了它。

<2>概念的界定：使用抽象定义将概念所指的现象于其他现象区分开来。（A）界定的第一步是将概念分解：即从不同角度或维度对概念所表示的现象进行分类，对有些高度抽象的概念要逐步分解；（B）第二步是作出抽象定义：通过分解可大致了解一个概念的基本内容和各种分类，根据分类就可以抽出各种类型的共同属性和特征对概念下定义。在社会研究中，抽象定义的作用是对在何种范围、何种含义上使用这一概念作出精确的说明，因为概念包括许多方面和不同维度。经过严格界定的概念称为变量，变量具体指概念内涵的各种类型或各种状态，它们对应于各种实际存在的事物，因此变量是可以观察和量度的。概念转换为变量形式之后就可以进入科学研究的领域了。

<3>选择测量指标：确定如何测量变量，选用那些指标来测量。指标是概念内涵的指示标志，它们直接表示经验层次的现象。指标可以量度现象的不同状态和不同程度。由经验现象的量度就可以说明抽象层次的概念。但指标指标是概念内涵的某一方面或某一部分内容，因此要更有效的测量概念就需要用多个指标。对概念（变量）的具体量度的方案也称为概念的操作定义。

<4>编制综合指标：对简单的概念可以用一两个指标来测量，而对复杂的概念，则要用多个指标来测量。

<5>概念的具体化过程就是一步步从抽象层次下降到经验层次，使概念具体化为可观测的事物。

\subsubsection{概念具体化案例：健康的心理} % (fold)
\label{ssub:健康的心理}
这是由李中莹总结的健康心理概念测量体系。健康的心理由6大类36项心理素质构成：\cite{李中莹，2011}
\begin{enumerate}
	\item 思想态度——最基本的处理生活中各种事件的态度
	\begin{enumerate}
		\item 对所有的人、事、物都抱着“三赢”的态度：我好、你好、世界好
		\item 常怀着“我如何能做得更好？”的态度
		\item 经常思考如何提升自己的能力
		\item 在困境中能够刻苦坚持
		\item 灵活
		\item 有创意，富于幽默感
	\end{enumerate}
	\item 学习提升——保持与时俱进的能力
	\begin{enumerate}
		\item 对很多事物有兴趣
		\item 有效地运用内感官
		\item 想掌握有关的学问和知识
		\item 多问“为什么”和“如何”
		\item 不满足于简单答案而是想了解更多
		\item 有尝试的勇气，可以付诸行动
	\end{enumerate}
	\item 自我管理——有效地照顾自己的人生
	\begin{enumerate}
		\item 自己可以做的不假手别人
		\item 自己想要的自己去争取、创造
		\item 以自己能够照顾自己为荣
		\item 爱护和尊重自己
		\item 有效的时间管理
		\item 有效安排自己要做的事情
	\end{enumerate}
	\item 人格发展——有效地为自己进行定位
	\begin{enumerate}
		\item 认识自己拥有和未有的能力
		\item 能够改变妨碍自己成长的信念
		\item 具备有效思维的能力
		\item 肯定自己拥有与别人一样的资格
		\item 尊重每一个人的界限
		\item 认识和珍惜自己能够做到的对世界的影响
	\end{enumerate}
	\item 情绪智能——做自己情绪的主人
	\begin{enumerate}
		\item 明白情绪其实是来自本人的信念系统
		\item 接受自己的情绪
		\item 具有管理自己情绪的能力
		\item 关心别人的感受
		\item 明白负面情绪的正面意义
		\item 能够接受“失去”
	\end{enumerate}
	\item 人际沟通——有效地与其他人相处
	\begin{enumerate}
		\item 有效表达自己的意思
		\item 能够主动与人接触
		\item 接受跟自己不同的人
		\item 能够妥善处理别人的不当言行
		\item 能够面对公众说话
		\item 良好的谈判、辩论能力
	\end{enumerate}
\end{enumerate}
% subsubsection 健康的心理 (end)

\subsection{操作定义}

操作化就是建立一些具体的程序或指标来说明如何测量一个概念。

<1>操作定义的功能：

（A）澄清概念在研究中所选用的意义；
（B）说明测量变量的操作方法；
（C）使一些陈述变量间关系的假说获得验证的机会；
（D）使今后同样的研究有所根据，以便比较彼此的结果。

（3）测量指标：指标是反映社会现象变异特征的范畴。是对社会范畴的变异方面的规定性加以具体化。它把现象的质的方面与量的方面密切的结合起来，以便精细描述社会现象的某一特征。测量时首先要说明指标，任何一个变量都有许多不同的指标，这是因为测量所依据的事实可以不一样。当一个变量有多个指标时，可以从中挑选若干个来测量变量，挑选指标的原则是方便与适当。各项指标可以分别研究，但有时需要将各项指标综合起来，以提高变量的抽象程度。建立综合指标的方法：类型法、指数法和量表法

（4）建立综合指标：<1>类型法：将各指标交互分类，然后建立新的类型，以形成一个新的指标；<2>指数法：是用简明合理的公式综合各指标，以建立一个新的指标。

4、 量度化方法：通过测量而得来的资料可分为三种纬度：（1）物理纬度:可以用客观的标准来测量,而不涉及主观判断。这些量度一般都属于定距或定比尺度。但这种量度只适合于某些社会现象。如事物的状态特征和行为特征。（2）心理物理纬度：包含物理纬度和心理纬度。一般认为，测量心理属性最多可达到定序尺度，而无法使用定距尺度。（3）心理纬度：是利用主观判断所制定的计量标准。缺点是：它们缺乏一套完善的测量理论，即缺乏公理和定理的系统。

5、 观测值的分解：测量理论的基础是数理统计中的误差理论或变异理论。测量理论建立在“任何观测值（测量分数或测量结果）都有误差”这一假设之上。（1）它认为，观测值（X）是有四个部分组成的：<1>真实值T。<2>其他变量的影响值O。<3>系统偏差B。<4>随机误差E。 （测量分数）X=T+O+B+E （2）随机误差(E)是非系统的变异，它是由于一些无法预料的因素引起的，如被测者的疏忽，粗心等。但是这种影响有正有负，所以要消除或减少随机误差，通常采用多次测量或抽取大量样本的方法，使正负误差相互抵消。（3）系统偏差(B)（南开2001<名>）是有规则的变异，它是由于测量工具、评分标准等直接与测量方法有关的因素引起的。消除或减少系统偏差的方法是采用标准化的测量工具；在测量之前将测量工具与标准尺度相互校对，以修正偏差。但有些系统偏差很难用标准化消除。（4）其他变量的影响(O)：也是一种有规则的变异，这种因素不是偶然的，而是内含在测验的题目或量表之中的。这种影响并不能通过多次测验而消除，它是内含在测量指标之中的。消除或减少这种影响主要通过对所研究的变量进行严格的操作化。（5）在评价社会研究中所使用的测量方法时必须考虑以下三个问题：<1>这一测量有没有系统偏差？这种系统偏差会不会影响研究的有效性？一般来说，任何测量都会有一定的系统偏差，因此，测量的主要任务就是使系统偏差控制在最小程度。<2>这一测量是不是可靠的？即随机误差对测量的可靠性有没有影响？假如测量受偶然因素影响很大，观测值就会在较大范围内起伏，在这种情况下，观测是不可靠的，测得得观测值其可信性很低。<3>这一测量是不是有效的？即所测得得数值是否正式向要研究的变量值，其他变量的影响值是否控制为最小？

\section{社会测量及其层次}

一、社会测量的概念
社会测量，是指运用一定的测量工具、按照一定测量规则对社会现象的特征进行预测或量度并赋予一定数值的过程。
社会测量有四个构成要素：　
1）测量工具，主要是调查问卷、各种量表和卡片等；
2）测量规则，即鉴别、测算或度量社会现象的规矩和准则；
3）测量对象，主要是各种社会现象的属性或特征；
4）测量数值，即表示社会测量结果的数字或符号。
社会测量的对象则是有目的、有意识、有思想感情的人，他们对测量的合作程度、认知状况，往往对测量结果产生重大影响。社会测量的工具、标准和规则，在很大程度上取决于设计者的价值取向、知识结构和调查目的，因而测量的客观性、可重复性、公认性较差，测量误差也较难以发现和计算。
社会测量的主要作用在于，使对社会现象的研究，特别是对个人感受、社会态度、心理状态等主观现象的研究，逐渐从定性研究走向定性与定量相结合的研究，从而达到更真实、更准确地反映电子计算机等现代工具引进社会调查领域，从而大大提高社会调查的精确化和现代化。
二、社会测量的层次
按照测量对数量化程度由低到高的顺序，社会测量可分为4个层次，即定类测量、定序测量、定距测量和定比测量。
（1）定类测量也称类别测量或分类测量，它是对测量对象的性质或类型的测量。其测量结果只能分类，标以各种类别名称，如用“0”代表女性、“1”代表男性；“1”代表农业、“2” 代表工业、“3”代表商业等等。这些数字都是人们赋予某类事物的识别标志，它们丝毫不反映这些事物本身的数量状况，不能作加、减、乘、除等数学运算。定类测量的数量化最低，其测量结果只能用数学符号“=”或“≠”来表示，只能做频率分布、在总体中所占比例等有限的几种数量统计。
（2）定序测量也称顺序测量或等级测量，它是对测量对象的等级或顺序的测量。定序测量的数量化程度比定类测量高一个层次，它已具有了数量差别的含义，其测量结果可用数字符号“<”或“>” 来表示，可进行频率分布、比例关系等集中数量统计，但还不能进行加减运算，不能测量出不同等级、顺序社会现象在数量上的具体差距。
（3）定距测量也称区间测量，它是对测量对象之间的数量差别或间隔距离的测量。对人的智商、初婚年龄、人均生活费用、家庭人数等可用某种基本单位表示数量差别或间隔距离的社会现象的测量，就属于定距测量，其测量结果可用具体数字来反映。定距测量不仅能反映社会现象的类别和顺序，而且能反映社会现象的数量状况，计算出它们之间的距离，
（4）定比测量也称比例测量，它是对测量对象之间的比例或比率关系的测量。对出生率、死亡率、性比例、劳动力负担系数、工资增长速度等反映两个数值之间比例或比率关系的社会现象的测量，就属于定比测量，其测量结果一般用百分比来表示，有时也可用绝对数来表示。定比测量的数量化程度比定距测量又高一个层次，其测量结果不仅能进行加减运算，而且能进行乘除运算，并可作各种统计分析。
上述四个测量层次的数学特性是累进叠加的，这就是说前一种测量没有后一种测量的反映功能和运算功能，后一种测量都包含着前一种测量的反映功能和运算功能。

\section{主观社会指标的测量}

一、主观社会指标的种类
（一） 从反映心理状态的层次看
从反映心理状态的层次看，主观社会指标大体上可分为六种类型：
（1）关于情绪或感情方面的指标，如您对现在的住房条件是否感到满意，您对目前的家庭生活是否感到幸福等，它是人们对现实生活状况的心境或喜怒哀乐等心理的直接反映。
（2）关于意向或期望方面的指标，它是人们对未来的向往、意愿或预期，是对现状满意与否的另一种反映。
（3）关于行为倾向方面的指标，它是人们对可能出现的事物或现象做出反映的意向，是人们内在情感或意向的具体表现。
（4）关于评价或判断方面的指标。它是人们对客观现象或方针政策、理论观点、主观看法等所作的带有理性色彩的评论。
（5）关于态度或决断方面的指标，它是人们在评价或判断基础上对某些政策、措施和社会现象做出选择或决定的反映。
（6）关于价值观念方面的指标，由于这些有抽象性、系统性和综合性等特点，很难直接测量，因而在实际调查中往往通过对工作、生活、名誉、地位、金钱的态度，对选择职业和配偶的标准，以及日常生活的时间安排、收支结构等比较具体的指标来进行间接测量。
上述六种社会指标，可归纳为两种基本类型：一是以感性认识为主的主观社会指标，包括情绪或感情方面的指标、意向或期望方面的指标和行为倾向方面的指标，这类指标的感性色彩较浓，具有不系统、不稳定和自发性、偶然性等特点，因而对同类性质问题的回答往往会出现首尾不一致的情况。二是以理性认识为主的主观社会指标，包括评价或判断方面的指标、态度或决断方面的指标和价值观念方面的指标。
（二）从反映的具体内容看
（1）关于经济生活方面的指标，如对工作地域或行业的选择、对工资收入的期望、对生活条件的评价等。
（2）关于政治生活方面的指标，如对民主制度的评价、对政治生活的感受、对社会参与的态度等。
（3）关于社会生活方面的指标，如对社会治安的看法、对社会风气的评价、对计划生育和环境保护的态度等。
（4）关于文化生活方面的指标，如对业余文化生活的满意程度、对文艺作品的期望、对订阅报刊的打算等。
（5）关于家庭生活方面的指标，如选择配偶的条件、对婚姻状况的评价、对子女求学的安排等。
总之，主观社会指标所涉及的内容是有一定限制的，它只能是人们比较熟悉、比较了解的社会现象，是与人们利害得失直接相关的社会现象，因而也是容易引起人们关注和议论的社会现象。
二、主观社会指标的测量方法
主观社会指标测量工具的设计，应该努力反映两个方面的内容：一是心理状态的方向；二是心理状态的等级或程度。
（一）总加量表
总加量表是美国社会心理学家伦西斯•利克特发明的，故也称利克特量表。这种量表的制作和使用过程是：
第一步，提出调查问题。根据研究课题的要求，在初步探索的基础上提出一组调查问题。
第二步，规定评分标准。对上述每个问题，按正反两个方向和不同程度分为3~5个评分等级。
第三步，进行测量试验。为了鉴别上述12个问题的辨别力，假定选取16位农民进行测量试验，按评分标准评出每个人在每个问题上应得的分数和12个问题得分的总和，并按16个试测对象所得总分的高低排列顺序，并列出每个人在每个问题上的得分情况。
第四步，评估测量试验的结果。根据试测得分情况，计算出总分得分最高和最低的各25\%的人在每个问题上所得的平均分数，并据此计算出平均值差数；最后做出评估结果，分清哪些是平均值差数相对低的问题。
第五步，制定总加量表。制定总加量表时，应该选择那些辨别力强的问题，淘汰那些辨别力弱的问题。所谓辨别力，是指把不同心理状态的人区别开来的能力。
第六步，进行实际测量。以制定的总加量表为工具，去实际测量被调查者的心理状态，然后根据每个人的回答，评出每道题的得分，并累加得出总分，最后以总分来说明每个人的心理状态。其中，总分越高的人，说明对该问题愈倾向于肯定；反之，则愈倾向于否定。
总加量表的主要优点是，使用比较简便，适用比较广泛。但它的缺点是，制作比较麻烦，单纯以部分评价人们的心理状态，往往在总分相同的情况下掩盖了实际内容的不同。\cite{艾尔·巴比，2009}
（二）累积量表
累积量表是心理学家路易斯•古德曼提出的，所以也称古德曼量表。这种量表的制作和使用步骤是：
第一步，提出问题和规定分数。提出的问题应是初步调查的结果，每个问题只需回答＂是＂和＂不是＂（或＂同意＂和＂不同意＂），并规定＂是＂或＂同意＂得1分，＂不是＂或＂不同意＂得0分。
第二步，试测和评分。
第三步，评估和制表。凡被测试者80\%以上（不含80\%）表示＂同意＂或＂不同意＂的问题，均算辨别力低的问题，应予淘汰。
第四步，测量和汇总。以制作的累积量表为工具，请被测者回答，然后按每人得分高低由上向下排列，再按每题得分多少由左向右排列，制成汇总表。
第五步，对反常现象的解释。产生反常现象的原因有二：一是被测者的回答往往带有随机性质，因此，对个别问题的回答与对其他问题的回答可能出现不一致的情况；二是量表中的问题选择不当，辨别力不强，致使反常现象频繁出现。这可用现系数来衡量。再现系数也称一致性系数，它表示在被测者的回答中保持一致性回答的百分比，
其计算公式为：
 再现系数=1-反常回答数/总回答数
一般来说，再现系数大于90\%，则可认为反常现象主要是由于被测者回答缺乏一致性造成的，这样的量表是基本有效的、可用的；再现系数若小于90\%，则应认为反常现象主要是由于量表选择问题不当、缺乏辨别力造成的，这样的量表就是无效的、不可用的。
（三）梯形量表
梯形量表的制作和测量很简单：
第一步，制作梯形量表，即由调查者设计若干问题，并在每个问题旁画一个有6个等级（也可多几个等级或少几个等级）的梯子图形，梯旁从下至上标明0~5号，其中“5”为最好的状况，
“1”为最坏的状况，“0”为无可奉告。
第二步，进行实际调查。
第三步，评估调查结果，即对各类被调查者对各个问题所作的回答进行统计分析，并对统计结果做出评价或解释。

\subsection{李克特量表}

最后，中国人和美国人对于一些词语的理解有文化差异。

在民意调查的选项里经常会出现“一般”这个选项。其实，美国人和中国人对“一般”的理解是不一样的。美国人的理解是，没有那么好，也没有那么差。中国人不是。中国人对“一般”的理解是，其实干得不咋地，不过呢，不太好意思说。所以你把“一般”去掉以后，选择的流向是不一样的。美国人是一半到上面，一半到下面，我们是80\%到下面。

因此，工具本身也需要研究。我们改变了量表，不用“满意”“不满意”，而用一个递进的量表，就是“完全不满意”“有一点点满意”“有比较多的满意”“总体是满意的”和“完全满意”。这个量表比那种两端“完全不满意”“完全满意”，往里“有点不满意”“有点满意”，中间弄个“一般”的，要来得科学些。\cite{袁岳，2013}


\section{测量的信度和效度}

在社会调查中离开信度和效度无法判断其获得的资料的可信性与有效程度。

\subsection{信度（Reliability）}

信度是指测量数据（资料）的可靠性程度，即测量工具能否稳定地测量到它要测量的事项的程度，就是说，信度是指测量的稳定性与一致性而言的。也就是说，信度是指同一或相似母体重复进行调查或测验，其所得结果相一致的程度。
信度系数，大部分信度指标都以相关系数（r）来表示，即用同一样本所得到的两组资料的相关系数作为测量一致性的指标，称为信度系数，

信度的类型，信度通常以相关系数表示，由于测量中误差变异的来源有所不同，所以，各种信度系数分别说明信度的不同层面而具有不同的意义。再测信度（Test-retestReliability），复本信度（Parallel-formsReliability），折半信度（Split-halfReliability）。

影响信度的因素。

\subsection{效度（Validity）}

效度是指正确性程度，即测量工具却能测出其所要测量的特质的程度。效度越高级表示测量结果越能显示出所要测量对象的真正特征，效度是任何科学的测量工具所必须具备的条件。效度的类型。效度是一个多层面的概念，它是相对于特定的研究目的和研究侧面而言的，效度就是看其准确性程度，可以从三个角度去看，内容效度（faceValidity），准则效度（CriterionValidity），建构效度（ConstructValidity）。

\subsection{信度和效度的统一}

6、 信度（南大98<名>；北大2004<名>）：指测量数据（资料）与结论的可靠性程度，即观测工具能否稳定地测量到它要测量的事项的程度。也就是说信度是指测量的稳定性与一致性而言的。（1）信度系数：信度可以看作系统性变异在观测到的总变异中所占的比率，系统性变异越大，则信度系数越大，表明测量的信度越高；信度也可以看成是在观测到的总变异中，不是因随机误差所造成的变异所占的比率。（2）信度的检查（南开2000<名>）：信度通常以相关系数表示。由于测量中误差变异的来源有所不同，故各种信度系数分别说明信度的不同层面而具有不同的意义。在实际应用中，信度系数有如下类型：<1>重测信度：用同一份问卷的问题，对同一群被测者前后调查两次，在根据调查的结果，计算其相关系数，就得到重测信度。这种信度能表示两次调查结果有无变动，反映了测量的稳定程度，故又称作稳定系数。它可以检查出被测者是否能正确理解所提的问题，并作出真实稳定的回答。这是一种测量信度的较好方法，但须注意两次调查相隔的时间要适当，如果时间太短，被测者还记得上次答案，所以测量的是他的记忆，而不是他此时的真实态度。如果间隔时间太长，可能会发生一些变故，影响到被调查者的态度。<2>复本信度：对一项调查的问题，让被调查者接受问卷测量，并同时接受这份问卷的复本的调查，然后根据调查结果计算其相关系数，就得到复本信度。使用复本求取信度可以避免重测信度的缺点，但使用的复本必须是真正的复本，即在题数、形式、内容、难度及鉴别度等方面都与原本一致，仅只在问法与用词方面与原本不同。复本调查可连续或相距一段时间进行，连续实施的复本信度又称等值系数；相聚一段时间实施的复本信度又称稳定与等值系数。<3>折半信度：将调查来的结果，按题目的单、双数分成两半记分，在根据各个人的这两部分的总分，计算其相关系数，就得到折半信度。<4>评分者信度（人大2001<名>）：在测量工具标准化程度较低的情况下，不同评分者的判分标准也会影响到测量信度，要计算评分者信度，可计算一个评分者的一组评分与另一个评分者的同一组评分的相关系数。（3）影响信度的因素：在结构化标准化程度较高的测量中，信度主要受随机误差的影响，随机误差越大，信度越低。随机误差的来源主要有：<1>被调查者：如是否耐心、认真、专注、不受情绪波动影响。一般来说，调查时间越长，提出的问题越多、越复杂，信度越低。<2>调查者：是否按规定程序和标准，是否有意或无意的对被调查者施加影响，纪录的认真程度等。<3>测量内容：如提问的措辞含糊不清，不易理解，各种题目内部一致性低，题数少等。<4>测量环境和时间：如研究人员对被调查者有较大“干扰”，他人在场的影响，两次测量的时间间隔太长等等。

7、 效度（南大96、97、2000<名>：测量效度；浙大2000<名>：测量的效度）：就是正确性程度，即测量工具确能测出其所要测量的特质的程度。效度越高，即表示测量结果越能显示其所要测量的对象的真正特征。测量的效度可以决定所建立的理论解释的正确程度。对效度的检验可以保证不同的研究人员对某一研究变量的意义与内涵有一致的理解。（1）效度的基本原理：从测量分数变异的观点来看，效度就是测量得分的总变异量中，由所要测量的特质所造成的变异量所占的百分比。（2）效度的检查（复旦96、97<简>：效度测定的三种类型是什么？内在联系如何？）：<1>内容效度（表面效度）（北大97<名>）：考察内容效度旨在系统的检查测量内容的适当性，并依据我们对所研究的概念（变量）的了解去鉴别测量内容是否反映了这一概念的基本内容。内容效度实质上是个判断问题。检查内容效度就是检查有概念到指标的经验推演是否符合逻辑，是否有效。在科学研究中，需要以大多数科学家所接受的概念定义为标准。 <2>准则效度（效标效度）（南大95<名>：标准效度）：准则是被假设或被定义为有效的测量标准，符合这种标准的测量工具可以作为测量某一特定现象或概念的效标。对同一概念的测量可以使用各种测量工具，其中每种测量方式与效标的一致性称为准则效度。 （A）如果效标或准则是依据将来实际发生的情况而建立的，那么这种准则效度可称为预测效度。预测效度是将已经得到的测量结果与未来实际发生的情况进行比较，以检查两者的一致性。 （B）如果效标识于某种测量方式同时被证明为有效的，则称之为共变效度。共变效度是用来判断其他的测量工具是否可以取代作为效标的测量工具。 （C）如果效标是以实际经验判断为准的，则称为实用效度。实用效度通常用来检查测量工具的实际效果。由于对某些现象的测量过去并没有一定的标准，所以只能依据实际经验来检验测量工具的有效性。 实用效度与共变效度有些近似，如定量化的干部测评方法就是以组织部门传统的考察干部的方法为效标，当它具有较高的效标效度时，由于它省时间、简便易行，所以就能取代过去沿用的老方法。 准则效度的局限：有些作为效标的测量工具只是假定有效的，它本身是否真正有效并没有理论根据，这一缺陷是心理量度化方法所共有的<3>建构效度（南大99<名>；复旦97、98<名>）：是要了解测量工具是否反映了概念和命题的内部结构。它通常在理论性研究中使用。由于它是通过与理论假设相比较来检查的，因此也称为理论效度。测量同一个概念可以用多个指标，当用X和Y的多个指标来测量两个概念之间的关系时，如果不同指标的测量都反映出理论所假设的关系，那么这些测量就具有建构效度。<4>内在效度与外在效度（北大2003<名>：内在无效度）：测量都是在具体的时间、地点对具体的调查对象所作的观测。如果在一项具体研究中，对上述三种效度（内容效度、准则效度、建构效度）的检查都没有发现问题的话，就可以认为这一研究具有内在效度，它的资料和结论可以有效的解答所研究的问题。可以说，内在效度是指一项研究的资料和结论的有效性。而外在效度是指这种研究结论的普遍有效性。对外在效度的检查要考虑样本的代表性和特殊性，以及研究时间、地点、情境和研究内容的普遍意义。

信度和效度的关系可以有如下种类：可信并有效，可信但无效，不可信但有效，不可信亦无效。

影响资料信度和效度的原因：调查者，测量工具，调查对象，环境因素及其他偶然因素。

信度与效度的关系：（1）信度低效度不可能高。如果收集的资料不可信、不可靠，那么它肯定不能有效地说明所研究的对象。（2）信度高，效度未必高（效度有可能很低）。（3）效度低，信度有可能很高。（4）效度高，信度必然也高。如果有效地说明了各种现象，那么它的资料和结论都必然是且必须是可信的。（5）测量的信度是效度的必要条件，但不是充分条件，无信度必然无效度，但有信度未必有效度。反之，效度是信度的充分条件但不是必要条件，有效度必然会有信度，但无效度却未必无信度。（6）效度=信度- ，由此可知，效度系数等于信度系数减去 。由于其他变量的影响是内含在测量工具之中，因此很难测出他们的变异量（ ），而信度系数则可由相关系数计算。所以在一些研究中，研究者常用信度系数来近似的说明效度，但这是有缺陷的，因为在社会研究中，其他无控制的变量对资料的效度有很大影响。所以还是应当通过对内容效度、准则效度和建构效度的检查来说明研究的有效程度。（7）由信度和效度的关系可知，所有影响信度的因素也必然影响效度。此外，除随机误差外，效度还受到系统偏差和其他变量的影响。对这些影响可主要考虑两个方面：<1>测量工具；<2> 样本的代表性。

